杜慧平 | 基于概念语义网络的词族挖掘研究
基于概念语义网络的词族挖掘研究
杜慧平
(上海师范大学数字人文研究中心)
1
引言
词族是语义相似的词汇集合,是语义工具的基础性构成单元,可直接用于检索扩展,也可以进一步识别其中的词间关系,用于语义控制工具的构建、丰富和更新。词族中的同义词和等级关系词汇在信息检索领域通常被宽泛地统称为同义词或准同义词[1],目前主要有以下几种计算机自动识别方法:①字面相似度或词面相似度计算方法[2-4],该方法利用了汉语字面成族特点识别同义词或准同义词,简单易行,但很多字面不相似的同族词难以识别出来;②基于语义词典的方法[5],该方法依靠《同义词词林》、《知网》等语义词典对词汇进行语义解析,通过计算词对在语义空间中的距离识别同义词,相比第一种方法虽能深入语义,但语义词典的匮乏和更新缓慢等因素制约了该方法的普及利用;③基于大型语料库的关键词同现分析方法[1][6],该方法操作简单,但识别出的词对间语义关系往往较为松散。④从检索日志中识别同义词[7],该方法利用检索查询式中的逻辑关系提取同义词,容易受到数据稀疏问题的影响;⑤从句法结构中识别同义词[8-9],该方法基于汉语行文形式特征提取同义词,需要首先总结出存在同义词和等级关系词汇的句子的句法模式,受限于汉语行文灵活多样,同时也未能深入语义进行识别。从以上分析看,每种方法各有其长处和不足。常春、赖院根等学者曾对以上多种方法进行比较,并提出一种较为实用的方法,即结合同现分析和汉语字面成族特征识别同义词和准同义词的 “词素后方一致”方法 [10-11],并应用到《汉表》(工程技术版)的实际编制中[12]。
本文提出一种基于概念语义网络的词族挖掘方法,首先建立学科领域的概念语义网络,然后采用社会网络分析中的Island算法发现该网络中的词汇聚集现象,并以金融学科领域为例,对该方法与层次聚类算法和“词素后方一致”方法就挖掘词族的效果进行了比较。
2
基于概念语义网络的词族挖掘关键技术
叙词表等语义工具可以被看作一个关系明确化的概念语义网络。概念语义网络由语词和语词之间的语义相似度构成,其中的节点是各种语词或概念,概念之间的关联由带权重的边表示,代表了概念之间的语义相似度。因此,在学科领域语料库基础上建立学科领域的概念语义网络,再利用一定网络分析方法,发现其中存在的概念聚集现象,可以辅助建立词族。该方法的关键步骤和技术如下:
(1)建立学科领域语料库和关键词词典
现有大型文献数据库提供了海量资源,为建立概念语义网络提供了基础资源保障。可以通过搜集书目数据和网络文献数据库中的题录信息建立某学科领域的语料库;已有知识组织工具是编表人员智慧的积累,蕴含了丰富的术语和语义关系,是词族构建的重要语料来源。因此,通过汇集已出版的分类表、叙词表、规范文档、专业词典以及学科领域语料库中的作者关键词,经过去重后生成关键词词典。该词典包含了这一学科领域的核心概念。
(2)构建学科领域概念语义网络
根据词汇分布规律,语义相似的两个词在特定的上下文中是可以互相替代的[13]。因此,当把词汇用与其经常同现的其他词汇来描述时,如果两个词汇W1和W2的同现词汇重叠度越高,词汇W1和W2的语义相似度越高。根据该原理,建立概念语义网络主要分三个步骤:①抽词阶段。用关键词词典对学科领域语料库中每一篇题录抽取词汇,同时统计词频,生成正排档。②同现分析阶段。利用统计学习中最常用的关联算法DICE测度计算正排档中所有词汇两两之间的关联度,公式为:
其中P(A) 和P(B)分别表示词汇A和B单独出现的可能性,P(AB)表示词汇A和B同时出现的可能性[1]。③概念语义相似度计算阶段。采用向量空间模型中常用的余弦相似度算法,以与词汇关联度最大的前N个词作为其特征向量,计算词汇之间的语义相似度(见公式),其中tki表示词i的第k个特征词的关联度,tkitkj表示词i和词j的第k个特征词相同时,各自特征词对应的关联度之间的乘积[14]。语义相似度值越大,说明两个词之间的语义相似度越高。
经过以上步骤,完成了所有词两两之间语义相似度的计算,形成了以这些词汇为代表的学科领域的概念语义网络。在该网络中,网络中的节点为词汇(概念),词汇(概念)之间的连线代表了二者在语义上存在相似性,连线的权值就是二者的语义相似度。
(3)利用聚类算法识别概念语义网络中的词族
①利用Island凝聚子群算法识别词族
从所构建的概念语义网络中发现词族聚集现象,可以借助一定的网络分析方法。以上生成的概念语义网络属于无向多值网络。社会网络分析中存在多种适用于分析无向多值网络的凝聚子群算法,可用于从概念语义网络中发现词族。其中island算法所识别的子群能同时考虑子群内外部关系以及子群成员之间的相似程度[15],最适宜对概念语义网络进行词族挖掘。在Pajek软件中使用Island算法的操作主要通过依次执行命令“Net/Partitions/Islands/Generate Network with Islands[on]”和“Net/Partitions/Islands/Line weights simple”实现。
注释:
无向多值网络:在社会网络分析方法中,把多值网络分为无向多值网络和有向多值网络。无向多值网络中,节点之间关系是对等的,并且关系存在强弱程度(权重)。
②利用层次聚类算法聚集词族
根据学科领域概念语义网络中概念之间的语义相似度,也可以采用层次聚类算法把语义相似概念聚集在同一词簇中,使相异概念分布在不同词簇中,从而达到词族识别的目的。根据聚类过程中簇之间距离的计算方法不同,层次聚类通常分为最近邻、最远邻、平均连通三种算法,其中平均连通又分为组内连通和组间连通两种[16]。本文拟利用SPSS软件对金融领域高频词汇进行层次聚类分析,以比较不同方法的词族挖掘效果,具体操作步骤是“分析—>分类—>系统聚类”。
3
金融领域词族发现的实证研究
3.1 语料库来源和关键词的选取
以金融学科领域为例,本文下载了CSSCI数据库中20种金融学来源期刊在2004年-2014年间发表的论文的题录信息,共计34603条(下载时间:2015年5月20日-27日)。从各个题录中的关键词字段抽取关键词,经过去重处理后形成了关键词词典,其中包含关键词共计56104条。根据知识组织工具收词的用户保障和文献保障原则,收录的词(词组)需具有一定词频。因此,本文把符合词频在20及以上的1095条关键词作为分析对象。表1列举了词频最高的前20个关键词。
3.2 金融领域概念语义网络的生成
以题录信息中的关键词字段作为同现窗口,统计了抽词词典中所有关键词之间的同现频率(见表2中的列“同现次数”),并计算了词对之间的DICE关联度值,即两个关键词在语料库中的同现概率。分别提取与所选定的1095个关键词关联度值最高的前50个词汇作为各个关键词的特征向量,利用余弦函数计算这些关键词之间的语义相似度,生成了金融领域高频关键词的概念语义网络。表2提供了与关键词“商业银行”关联度最高的前10个词汇和与之语义相似度最高的前10个词汇。通过对比可以发现,概念语义网络中,各词对之间在语义上的关系比同现率计算结果更密切,大多属于同类事物,尽管词对间的同现频次不高;而同现词汇之间的关系更多是“修饰”关系或“相关关系”。
3.3 不同算法的词族挖掘结果
(1)Island算法的词族挖掘结果
在这个由1095个关键词组成的概念语义网络中,存在433241条连线,网络密度为0.72,平均点度为791.31。从这两个数值看,这个网络比较密集,平均每个关键词与其他791个关键词存在语义相似度。经观察,语义相似度在0.18以下的关键词对之间实际语义相似性很低,可以忽略。因此,去除连线值低于0.18的连线,从而得到一个新网络。该网络存在8234条连线,有202个孤立点,网络密度为0.014,平均点度为15,最高语义相似度为0.60347。下面的分析将在这个新网络基础上进行。
用Island算法对金融领域概念语义网络进行分析,需要通过设置阈值,即通过调整词族中包含的关键词的最大数量来控制所生成词族的多少。经过反复实验比较,本文采纳了阈值设为10时词族生成结果。共生成了61个词族,其中最大词族含有9个关键词,含有2个关键词的词族有30个,孤立关键词为889个(见图1和表3)。
孤立点较高的原因在于,经过预处理后的概念语义网络的网络密度为0.014,在所有可能出现的语义关联中,只有1.4%实际出现在网络中。平均点度为15,即平均每个关键词有15个关键词与之语义相似度大于0.18。因此,生成的金融领域概念语义网络是一种具有低密度,高凝聚性特点的网络。这说明,该网络中局部关键词高度密集,而大部分关键词较为散落地分布着。这正是island算法分析结果得到较多的孤立点的根本原因。
(2)层次聚类算法的词族挖掘结果
在SPSS中可以通过设定生成的簇的数量来控制层次聚类算法的停止时机。为了与Island算法进行比较,设定生成的词簇数量与之相同(950个),各种层次聚类算法生成词簇的情况见表4。从表中看,最近邻算法倾向于生成大的词簇,并且孤立点较多,而大的词簇内成员之间的语义关系必定较为松散,不适合用于词族挖掘。最远邻算法则倾向于生成小的词簇,尽管孤立点较少,但是小词簇容易割裂语义关系较为紧密的词对,所以也不适合用作词族挖掘。组间和组内连通算法则表现出适用性,通过进一步查看词簇成员之间关系,发现组间连通的聚类效果最优。
4
用于识别词族的算法比较分析
4.1 从算法本身看
Island算法属于社会网络分析法,它要求识别出的子网络内部各个顶点直接或间接连通,并且子网络内部顶点之间的连线值大于通往子网络外部顶点的连线值[15]。因此,用于识别词簇时,它同时考虑词簇内外部关系以及词簇成员之间的相似程度,从概念语义网络的整体出发,识别出概念语义网络中语义关系最为紧密的词簇。该算法能够从概念语义网络代表的学科全局考察出发,“自上而下”识别词族。同时,网络密度和平均点度能够帮助用户深入了解整个学科概念语义网络的特征。例如,本文所生成的概念语义网络通过网络密度和平均点度分析,可知是一种具有低密度、但局部高凝聚性特征的网络,因此利用Island算法和层次聚类算法识别词簇的结果中会有很多散落点。
层次聚类算法属于多元统计方法,最常用的最近邻、最远邻、平均连通等层次聚类算法将所有数据对象逐渐组成一颗聚类树,均属于“自下而上”的类簇生成方法[16]。这种算法从局部着手,特别是关注聚类过程中对词簇进一步合并的策略,但并不能保证类簇内各个对象之间的相似度均大于通往类簇外面对象的相似度,因此不能保证得到的类簇是从全局看最为紧密的类簇。
采用“词素后方一致”识别词族的方法,利用汉语词汇字面成族的特点,把具有相同末尾词素的同现词汇识别为等级关系词汇[11],也是一种“自下而上”的词族生成方法。根据周荣莲的统计,汉语叙词表的词族族内词与族首词词根完全相同或部分相同的比例高达50%[17],可见该方法具有一定适用性;但是,并不是所有字面具有相同词素的词汇在语义上都是紧密联系的,上下位词或同义词也可能是字面上无相同词素的词汇,正如张琪玉教授所言,“高质量的聚类应是概念聚类,字面相似聚类还不可能完全达到概念聚类的要求”[18]。
4.2 从识别词族的效果看
(1)Island算法与层次聚类算法比较
本文分别采用了社会网络分析中的Island算法和层次聚类算法识别概念语义网络中的词族。由上文可知,组间连通算法是层次聚类各算法中最适合用作词族挖掘的,因此下文对Island算法和组间连通聚类算法的词族识别效果进行比较。在限定两种方法生成的词族数量相同时,聚类结果中孤立关键词数量分别为889个和884个,但后者生成的大词族更多些,最大词族含有25个关键词。对于所生成的词族质量,表5按照生成的词族容量,从大到小列出结果,笔者对词族内紧凑的小词族进行了整理。从该表看,Island算法识别的词族内关键词之间的语义关系更紧密,词族识别效果更好,词族内一般为同义词、上下位词和关系紧密的词构成。例如,识别出的词族“保险公司/保险企业/寿险公司/商业银行/股份制商业银行/国有商业银行/国有银行/股份制改革”中,“保险公司”与“保险企业”是同义词,与“寿险公司”是上下位词关系;“商业银行”与“股份制商业银行”、“国有商业银行”为上下位词,与“国有银行”是同位词关系,与“股份制改革”是相关关系;保险公司与商业银行又同属于金融机构。组间连通算法识别的词族则较为松散,难以识别出词族。
(2)Island算法与“词素后方一致”方法比较
在同义词、上下位词和相关词的识别方面,二者均只能识别出部分。“词素后方一致”方法擅长识别字面上具有相同词素的同族词,但对于无此特征的同族词无能为力;Island算法擅长识别关系最为紧密的同族词,并能识别出一定无字面相似特征的同族词。以“商业银行”为例,Island算法识别结果(见表5)中,“股份制商业银行”、“国有商业银行”、“国有银行”均包含在“词素后方一致”方法的识别结果中(见表6),而“保险公司”、“保险企业”与“商业银行”为同位词,即同属于金融机构,这是“词素后方一致”方法难以识别出的。
在操作方面,“词素后方一致”方法实现简单,更易于操作;但Island算法能借助社会网络分析软件展示词簇生成结果,用户可以直观地,从全局把握词簇的分布情况。Pajek软件可以根据关键词节点之间连线的多寡和权重的高低调整节点的大小、变换节点颜色、调节节点关键词的位置,便于掌握重要关键词、查看词簇边界和其内部构成。
通过以上分析可见,“词素后方一致”方法和Island算法在识别词族的效果方面各有优势,前者操作简单、高效,后者具有全局把控、图形显示的特点,如果结合使用,应能取长补短。
5
结语
本文提出了一种新的词族识别方法,即构建学科领域概念语义网络,在此基础上使用社会网络分析方法中的Island算法发现学科领域中的词族。所建的概念语义网络改进了以往单纯基于同现统计的方法,识别出的词汇语义关系更为紧密。并以金融领域为例,比较了Island算法和层次聚类分析算法、“词素后方一致”方法用以识别词族的效果,发现Island算法的表现优于层次聚类算法,并可与“词素后方一致”方法结合使用,取长补短。
概念语义网络的质量会直接影响Island算法的分析效果,因此需要在大量数据基础上生成,才能保障概念语义网络能够反映出学科领域的真实概念语义网络的全貌。此外,本文只以金融学科领域为例做了实证研究,后续将对其他学科领域进行实验和比较。
参考文献:
1.刘华梅,侯汉清.基于情报检索的汉语同义词识别初探[J].情报理论与实践.2005,28(4):373-382
2.宋明亮.汉语词汇字面相似性原理与后控制词表动态维护研究[J].情报学报,1996,15(4):261-271
3.朱毅华,侯汉清,沙印亭.计算机识别汉语同义词的两种算法的比较和测评[J].中国图书馆学报,2002,28(4):82-85
4.侯汉清,吴志强.利用字面相似度识别汉语同义词的实验[C]//中国科学技术情报学会.第15届全国计算机信息管理学术研讨会论文集.2001:222-229
5.章成志.基于文本层次模型的Web概念挖掘研究:基于概念语义网络的自动标引和自动分类研究[D].南京:南京农业大学,2002
6.钟伟金.共现关键词—叙词同义关系自动识别研究:基于户信息法、概率法的对比分析[J].图书情报工作,2012,56(18):122-126
7.谷威,李超凡,王洪俊等.专利检索日志的同义词获取[J].现代图书情报技术,2015,255(2):24-30
8.陆勇,侯汉清.面向信息检索的汉语同义词自动识别和挖掘[J].情报理论与实践,2006,29(4):472-475
9.于娟,尹积栋,费庶.基于句法结构分析的同义词识别方法研究[J].现代图书情报技术,2013,237(9):35-40
10.常春,赖院根.基于文献标题词汇共现获取词间关系研究[J].图书情报工作,2009(4):17-20.
11.王世清,吴雯娜,常春.叙词表编制中等同关系获取方法[C]//戴维民,赵建华,汪东波,贺德方.网络环境下信息组织的创新与发展:全国第五次情报检索语言发展方向研讨会论文集.北京:国家图书馆出版社,2009:114-119
12.中国科学技术信息研究所.《汉语主题词表》(工程技术卷)编制与应用项目工作文件讨论稿[M].2009
13.Harris Z S.distributional structure[J].Words,1954,10(23):146-162.
14. 杜慧平,仲云云.自然语言叙词表自动构建研究[M].南京:东南大学出版社,2010:100-103.
15.沃特·德·诺伊,安德烈·姆尔瓦等.蜘蛛:社会网络分析技术[M].林枫译.北京:世界图书出版公司,2014:108-110.
16.Han J,Kamber M.数据挖掘:概念与技术[M].范明,孟小峰,译.北京:机械工业出版社,2008:267-269.
17.周荣莲.汉语叙词表语义场构造分析[J].图书情报工作,2000(8):41-45.
18.张琪玉.字面相似聚类法辅助构造词族表、分面类表和自动标引[J].图书馆论坛,2002,22(5):95-96
【本文系国家社会科学基金一般项目“基于语义关联的数字档案资源跨媒体知识集成服务研究”(项目编号:14BTQ073)和上海师范大学校级项目“汉-英跨语言信息检索查询翻译消歧研究”(A-3131-12-001002)的研究成果之一】
(原载《图书情报工作》第60卷第21期)
延伸阅读
编辑:刘婷